Нейросетевой метод визуального распознавания голосовых команд водителя с использованием механизма внимания
Аннотация:
Введение. Визуальное распознавание речи или автоматическое чтение речи по губам все чаще применяется для преобразования речи в текст. Видеоданные доказывают свою необходимость в системах мультимодального распознавания речи, особенно когда использование акустических данных затруднено в виду сильных аудиошумов или недоступно. Основная цель исследования заключается в повышении эффективности распознавания команд водителя путем анализа визуальной информации для снижения тактильного взаимодействия с различными автомобильными системами (мультимедийными и навигационными, телефонными звонками и др.) во время вождения. Метод. Предложен метод автоматического чтения речи водителя по губам в процессе управления транспортным средством на основе глубокой нейронной сети архитектуры 3DResNet18. Выполнен анализ динамической информации о движении губ диктора с помощью 3D-сверточных слоев нейросети. Использование нейросетевой архитектуры с двунаправленной моделью Long Short-Term Memory и механизмом внимания позволяет добиться более высокой точности распознавания при незначительном снижении скорости работы. Основные результаты. Предложены и исследованы два варианта нейросетевых архитектур для визуального распознавания речи. При использовании первой нейросетевой архитектуры результат распознавания голосовых команд водителя составил 77,68 %, что ниже на 5,78 %, по сравнению со второй. Скорость работы системы определена показателем реального времени (Real-Time Factor, RTF), значение которого для первой нейросетевой архитектуры равен 0,076, а второй — 0,183, что выше более чем в два раза. Предложенный метод апробирован на данных дикторов многомодального корпуса RUSAVIC, записанных в автомобиле. Обсуждение. Результаты исследования могут найти применение в системах аудиовизуального распознавания речи. Подобные системы могут быть рекомендованы для применения в сильно зашумленных условиях, например, в процессе управления транспортным средством. Проведенный анализ позволил выбрать оптимальную нейросетевую модель визуального распознавания речи для последующего встраивания в ассистивную систему на базе мобильного устройства.
Ключевые слова:
Постоянный URL
Статьи в номере
- Определение типа действия ингибиторов гидратообразования по их инфракрасным спектрам
- Спектроскопия комбинационного рассеяния света в исследованиях процессов инактивации бактериальных микроорганизмов
- Численное исследование влияния концентрации метгемоглобина в крови на поглощение света в коже человека
- Низкотемпературная ячейка для инфракрасных фурье-спектрометрических исследований углеводородных веществ
- Особенности выращивания твердых растворов Ga1–xInxAs на подложках GaAs в поле температурного градиента через тонкую газовую зону
- Усовершенствованный протокол безопасности на основе AES-GCM для защиты связи в интернете вещей
- Атаки на основе вредоносных возмущений на системы обработки изображений и методы защиты от них
- Сверхвысокое разрешение изображения магнитно-резонансной томографии головного мозга с использованием дискретного косинусного преобразования и сверточнойнейронной сети
- Метод аугментации текстовых данных с сохранением стиля речи и лексики персоны
- Верификация событийно-управляемых программных систем с использованием языка спецификации взаимодействующих автоматных объектов
- Интеллектуальная система адаптивного тестирования
- Сегментация опухоли головного мозга на магнитно-резонансной томографии с использованием нечеткого деформируемого слияния и алгоритма Dolphin-SCA
- Оптимизация систем отслеживания человека в виртуальной реальности на основе нейросетевого подхода
- Погрешности алгоритма демодуляции с генерируемой фазой несущей, вносимые фильтром низкой частоты
- Моделирование процесса корректировки формы роторов шаровых гироскопов
- Метод пространственного мультиплексирования в многоантенных системах связи
- Математическое моделирование теплообменного аппарата с учетом сильной зависимости вязкости нефти от температуры
- Подход к формированию обобщенных параметров технического состояния сложных технических систем c использованием нейросетевых структур
- Численное моделирование газодинамики при работе широкодиапазонного ракетного сопла с пористой вставкой
- Точное решение задачи отражения ударной волны от стенки, экранированной слоем газовзвеси
- Адаптивный наблюдатель переменных состояния нелинейной нестационарной системы с неизвестными постоянными параметрами и запаздыванием в канале измерений
- RuLegalNER: новый датасет для распознавания именованных юридических сущностей на русском языке